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基于 深度 学 习 的 面部 表情 识别 研究 
陆 嘉 慧 ， 张 树 美 ， 赵 俊 莉 
(青岛 大 学 数据 科学 与 软件 工程 学 院 , 山东 青岛 266071) 


摘 XE: 近 几 年 来 ， 深 度 学 习 在 语音 识别 、 图 像 理解 等 许多 应 用 领域 取得 了 突破 性 成 果 。 针 对 基于 深度 学 习 的 静态 
人 脸 图 像 表 情 识 别 方法 进行 研究 ， 首 先 介绍 了 深度 学 习 的 原理 ， 并 归纳 了 目前 公开 且 常 用 的 面部 表情 数据 集 ; 然后 
介绍 了 基于 深度 学 习 的 表情 识别 的 三 个 步骤， 归纳 了 图 像 预 处 理 和 表情 分 类 的 主要 方法 ， 重 点 总 结 了 目前 性 能 较 好 
用 来 提取 特征 的 深度 学 习 框 架 以 及 这 些 方 法 的 基本 原理 和 优 劣势 比较 ; 最 后 指出 了 目前 面部 表情 识别 存在 的 问题 和 
未 来 可 能 的 发 展 趋势 。 
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Static face image expression recognition method based on deep learning 


Lu Jiahui, Zhang Shumei, Zhao Junli 
(School of Data Science & Software Engineering, Qingdao University, Qingdao Shandong 266071, China) 


Abstract: In recent years, deep learning has achieved breakthrough results in many application fields such as speech 
recognition and image understanding. This paper reviews the static face image expression recognition method based on deep 
learning. Firstly, it introduces the principle of deep learning, and summarizes the current public and commonly used facial 
expression data sets. Then introduces the three steps of expression recognition based on deep learning. The main methods of 
image preprocessing and expression classification are summarized. This paper mainly summarizes the deep learning 
frameworks that are used to extract features, the basic principles, advantages and disadvantages of these methods. Finally, 
the problems of facial expression recognition and possible future development trends are pointed out. 
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0 引言 基于 深度 学 习 的 静态 人 脸 图 像 表情 识别 方法 。 
X2 gpEMA CL 
面部 表情 在 人 们 日 常 交往 的 情感 表达 中 扮演 着 重要 角 | RBS 
色 ， 是 识别 人 类 的 情感 和 行为 最 重要 的 线索 之 一 ， 它 被 定义 深度 学 习 是 指 多 层 神 经 网 络 上 运用 各 种 机 器 学 习 算 法 解 
为 对 应 人 的 内 心情 绪 状 态 、 意 图 或 社交 信息 的 脸 部 变化 。 早 “” 决 图 像 、 文 本 等 各 种 问题 的 算法 集合 。 深 度 学 习 人 允许 由 多 个 
在 20 世纪 ，Ekmant 根 据 跨 文化 研究 定义 了 六 种 基本 表情 ， 处 理 层 组 成 的 计算 模型 来 学 习 具 有 多 个 抽象 级 别 的 数据 表 


这 些 典型 的 面部 表情 是 人 愤怒、 厌恶、 恐惧、 快乐、 悲伤 和 惊 ” 示 ， 它 通过 使 用 反 向 传播 算法 来 发 现 大 型 数据 集中 的 复杂 结 
喜 ， 茂 视 后 来 也 被 添加 为 表情 之 一 。 人 脸 表 情 识 别 〈facial ” 构 ， 以 指示 机 器 应 如 何 更 改 其 内 部 参数 ， 根 据 前 一 图 层 的 表 
expression recognition, FER) 具有 广泛 的 应 用 ， 如 人 机 界面 、 示 计 算 每 个 图 层 中 的 表示 。 其 核心 是 特征 学 习 ， 旨 在 通过 分 
互动 游戏 、 在 线 /远程 教育 、 刑 事 调查 和 商业 分 析 等 。 人 脸 表  ” 层 网 络 获取 分 层次 的 特征 信息 ， 从 而 解决 以 往 需 要 人 工 提 取 
情 识 别 问 题 是 计算 机 视觉 领域 的 一 个 传统 问题 ， 它 作为 智能 。” 特征 的 重要 难题 ,深度 神经 网 络 (deep neutral network, DNN) 
化 人 机 交互 Chuman-computer interaction，HCI) 技术 中 的 一 训练 也 被 称 为 深度 学 习 ， 由 于 新 兴 强 大 的 并 行 处 理 硬 件 和 图 
个 重要 组 成 部 分 ， 近 年 来 得 到 了 广泛 的 关注 ， 涌 现 出 许多 新 形 处 理 单元 (GPU), DNN 成 为 模式 识别 和 机 器 学 习 科 学 领 
的 方法 。 域 的 热门 话题 。 


根据 不 同 的 输入 资源 ， 面 部 表情 识别 系统 可 以 分 为 两 个 深度 学 习 的 概念 由 Hinton APIF 2006 年 提出 ， 表 明 


主要 的 类 型 ， 即 输入 静态 图 像 和 动态 图 像 序 列 。 静 态 图 像 的 “深度 信念 网 络 ” 可 使 用 一 种 称 为 非 监督 “贪心 逐 层 预 训练 ” 
方法 仅 从 当前 输入 中 提取 特征 图 像 ， 而 图 像 序列 的 方法 可 以 ” 算法 来 解决 深层 结构 相关 的 优化 难题 ， 之 后 提出 多 层 自 动 编 
提取 图 像 序列 的 时 间 信 息 以 及 每 个 静态 图 像 的 特征 。 据 研究 。 码 器 深层 结构 。 此 外 Lecun 等 人 提出 的 卷 积 神经 网 络 是 第 

表明 ， 传 统 手 工 提取 的 特征 无 法 解决 与 面部 表情 无 关 的 各 种 。 个 真正 多 层 结 构 学 习 算法 ， 它 利用 空间 相对 关系 减少 参数 数 
忆 素 ， 为 了 解决 这 一 问题 ， 伴 随 着 芯片 处 理 能 力 的 显著 提高 目 以 提高 训练 性 能 。 

0 精心 设计 的 网 络 架构 各 个 领域 的 研究 已 经 转向 深度 学 习 方 深度 学 习 也 为 科学 作出 了 贡献 。 除 了 在 图 像 识别 、 语 音 
法 ， 且 这 些 方 法 已 经 达到 了 不 错 的 识别 精度 。 本 文 重 点 阐述  ” 识别 等 领域 打破 了 纪录 ， 它 还 在 另外 的 领域 击败 了 其 他 机 器 
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录用 定稿 陆 嘉 慧 ， 等 : 基于 深度 学 习 的 面部 表情 识别 研究 第 37 卷 第 4 期 
学 习 技 术 ， 包 括 预测 潜在 的 药物 分 子 的 活性 、 分 析 粒 子 加 速 KDEF05: 是 一 个 实验 室 控制 下 最 初 开 发 用 于 心理 学 和 


器 数据 、 重 建 大 脑 回 路 等 。 除 此 之 外 ， 深 度 学 习 在 自然 语言 医学 的 数据 集 , 由 70 个 演员 的 图 像 组 成 ,有 五 个 不 同 的 角度 ， 
理解 的 各 项 任务 中 也 取得 了 不 错 的 成 果 ， 特 别 是 主题 分 类 、 包含 4900 张 图 片 ， 样 本 标 有 六 个 基本 表情 加 中 性 表情 。 
情感 分 析 、 自 动 问答 和 语言 翻译 。 a 
深度 学 习 是 一 个 杠 染 ， 其 中 包含 多 种 算法 。 在 静态 图 像 ”了 。 基于 深度 学 习 的 面部 表情 识别 
的 面部 表情 分 析 任 务 中 ， 通 常用 到 的 算法 有 深度 信念 网 络 通常 面部 表情 识别 可 以 被 建 模 为 图 像 分 类 问题 ， 它 由 图 
(deep belief networks，DBN )、 自 动 编码 器 Cauto-encoders, 像 预 处 理 、 特 征 提取 和 分 类 三 个 主要 步 又 组 成 。 下 面 简单 总 
AE)、 卷 积 神经 网 络 (convolutional neural network, CNN) 结 了 每 个 步骤 中 广泛 使 用 的 算法 。 
等。 3.1 面部 表情 图 像 预 处 理 

预 处 理 是 在 提取 特征 之 前 排除 与 面部 表情 无 关 的 一 切 干 
2 。 面部 表情 数据 集 扰 ， 如 光照 、 头 部 姿势 以 及 不 同 的 背景 等 ， 目 的 是 将 面部 对 
在 表情 识别 训练 实验 过 程 中 ， 使 用 足够 有 效 的 标记 数据 准 到 公共 参考 系 ， 使 得 从 每 个 面 提取 的 特征 对 应 于 相同 的 语 
进行 训练 是 十 分 重要 的 ， 数 据 集 应 包括 尽 可 能 多 的 种 群 和 环 义 位 置 。 其 主要 方法 有 人 脸 检 测 、 人 脸 对 齐 、 数 据 增强 、 人 
境 变 化 。 下 面 介 绍 几 个 比较 常见 且 已 公开 的 用 于 基本 表情 识 脸 归 一 化 。 


别 的 数据 集中。 3.1.1 人 脸 检测 
CK4, 是 用 于 评估 FER 系统 使 用 最 广泛 的 实验 室 控制 第 一 步 是 检测 面部 ， 去 除 背 景 和 非 面 部 区 域 。 传 统 的 人 


条 件 下 的 数据 集 。 包 含 123 个 受 试 者 的 593 个 视频 序列 。 序 丛 检 测 方法 是 利用 人 工 提取 特征 来 训练 分 类 器 进行 人 脸 检 


列 的 持续 时 间 从 10 到 60 帧 不 等 ， 并 显示 从 中 性 表情 到 峰值 测 ， 例 如 opencv 源码 中 自 带 的 人 脸 检 测 器 就 是 利用 Haar 特 
表情 的 转变 。 在 这 些 视频 中 ， 来 自 118 名 受 试 者 的 327 个 序 征 进行 的 ， 但 在 环境 变化 强烈 的 时 候 检测 效果 不 理想 。 
列 基于 面部 动作 编码 系统 被 标记 六 个 基本 表情 标签 (愤怒 、 Viola-Jones (V&J) 人 脸 检 测 器 09 是 一 种 经 典 且 广泛 采用 的 方 
厌恶 、 慌 惧 、 快 乐 、 悲 伤 和 惊讶 ) 加 上 藏 视 。 法 ， 己 公开 使 用 且 计 算 简单 。 后 来 在 深度 学 习 阶 段 ， 提 出 了 
MMIP!; 是 实验 室 控制 条 件 下 的 来 自 32 个 受 试 者 的 326 性 能 更 好 的 Faster-RCNN、R-FCN 系列 以 及 速度 更 快 世 


的 
的 序列 ， 包 含 740 张 图 片 和 2 900 个 视频 ， 共 213 个 序列 用 YOLO, SSD 系列 来 检测 人 脸 ， 可 以 适应 环境 变化 和 人 脸 不 
网 


六 个 基本 表情 标记 。 此 数据 集 存 在 主体 差异 ， 受 试 者 非 均 匀 ”全 等 问题 ， 但 是 时 间 久 ， 于 是 又 有 了 级 联结 构 的 卷 积 神经 
执行 相同 表情 ， 且 许多 受 试 者 佩戴 眼镜 或 留 衣 子 等 。 络 ， 进 一 步 提高 了 人 脸 检 测 性 能 。 
JAFFE 9, 日 本 女性 面部 表情 数据 集 是 实验 室 控制 的 来 3.1.2 人 脸 对 齐 
自 10 名 日 本 女性 的 213 个 表情 样本 。 每 个 主体 /表情 包含 的 虽然 面部 检测 是 实现 特征 学 习 的 必要 过 程 ， 但 进一步 的 
样本 很 少 。 图 像 用 六 个 基本 表情 和 中 性 表情 标记 。 人 脸 对 齐 可 以 大 大 提高 面部 表情 识别 性 能 。 人 脸 对 齐 可 以 看 
TFD"; 多 伦 多 人 脸 数据 集 是 几 个 面部 表情 数据 集 的 合 ”做 在 一 张 人 脸 图 像 搜 索 人 脸 预先 定义 的 点 ,也 称 为 人 脸形 状 ， 
并 , 包含 实验 室 控制 下 的 112 234 张 图 像 ， 其 中 4 178 张 用 六 ”通常 从 一 个 粗 估 计 的 形状 开始 ， 然 后 通过 迭代 来 细 化 形状 的 


个 基本 表情 标签 和 中 性 表情 标签 注释 。 估计 。 在 搜索 的 过 程 中 使 用 了 两 种 不 同 的 信息 ， 即 人 脸 的 外 

FER2013'!, fir ICML 2013 挑战 赛 中 引入 ， 由 Google 和 形状 。 形状 提供 一 个 搜索 空间 上 的 约束 。 广泛 使 用 的 方 
图 像 搜 索 API 自动 收集 的 大 规模 且 无 约束 的 数据 集 ， 包 含 。 法 是 通过 IntraFace 软件 ， 应 用 基于 回归 的 面部 标志 定位 方 
28 709 个 训练 图 像 、3 589 个 验证 图 像 和 3 589 个 具有 六 个 基 ”法 ， 即 监督 下 降 法 CSDM"), 检测 出 49 个 准确 的 面部 标志 
本 表情 加 中 性 表情 标签 的 测试 图 像 。 点 。 其 他 的 方法 有 混合 树 结构 模型 (mixtures of trees, 

AFEWÜ! 自从 2013 年 EmotiW 系列 情感 识别 挑战 赛 以 Moti!) JA] og] mp NN; Ed 30. 4 Cdiscriminative response map 
来 使 用 , 包含 从 不 同 电影 收集 的 视频 剪辑 , 具有 自发 的 表情 、 Fitting, DRMFC9), Dlib C++ 库 2CU、 多 任务 级 联 卷 积 神经 网 
不 同 头 部 姿势 、 遮 挡 和 照明 。 样 本 标 有 六 种 基本 表情 标签 加 络 (MTCNNC3)、DenseReg231 和 小 人 脸 检 测 P4 。 
中 性 表情 。 此 数据 集 在 不 断 更 新 中 ，2017 年 EmotiW 最 新 的 3.1.3 数据 增强 
AFEW 7.0 包含 1 809 个 视频 。 深度 神经 网 络 需 要 足够 有 效 的 训练 数据 以 确保 识别 任务 

SFEWU?9!, 是 基于 面部 点 聚 类 计算 关键 帧 从 AFEW 数据 4 普遍 性 , 但 是 公开 提供 的 FER 数据 集 没 有 足够 数量 的 图 像 
集中 选择 静态 帧 创建 。 最 常用 的 版 本 SFEW 2.0 是 2015 年 。 用 于 训练 ， 数 据 量 少 往往 会 导致 过 拟 合 现象 。 因 此 ， 数 据 增 
EmotiW 的 基准 数据 集 , 包含 1766 张 图 片 , 标 有 六 种 基本 表 0 强 是 面部 表情 识别 的 关键 步 又。 常用 的 数据 增强 方法 有 旋转 / 
情 标 签 加 中 性 表情 。 反射 变换 、 翻 转变 换 、 缩 放 变 换 、 平 移 变 换 、 尺 度 变 换 、 对 

Multi-PIEU U; 包含 实验 室 控制 下 来 自 33 个 视点 下 的 337 比 度 变 换 、 噪 声 扰动 、 颜 色 变化 等 。 同 时 ， 还 有 其 他 的 如 生 
个 受 试 者 的 755370 个 图 像 。 每 个 面部 图 像 都 标 有 六 种 表情 ”成 对 抗 网 络 生成 脸 ，3D 卷 积 神经 网 络 辅助 动作 单元 CAUS) 
之 一 : 厌恶 、 中 性 、 尖 叫 、 微 笑 、 上 转眼 和 惊讶 。 此 数据 集 通 ”生成 表情 23 等 。 
常用 于 多 视图 面部 表情 分 析 。 3.1.4 人 脸 归 一 化 
BU-3DFE!?!, 包含 实验 室 控制 下 从 100 人 中 捕获 的 606 照明 和 头 部 姿势 的 变化 会 很 大 程度 影响 面部 表情 识别 性 
个 面部 表情 序列 ， 共 2 500 张 图 片 ， 标 有 六 种 基本 表情 标签 能 ， 因 此 引入 两 种 典型 的 人 脸 归 一 化 方法 来 改善 这 些 变化 : 
加 中 性 表情 。 此 数据 集 通常 用 于 多 视图 3D 面部 表情 分 析 。 灰 度 归 一 化 和 几何 归 一 化 。 灰 度 归 一 化 , 是 增加 图 像 的 亮度 ， 
Oulu-CASIAUS 包括 实验 室 控 制 下 从 80 个 受 试 者 中 使 图 像 的 细节 更 加 清楚 ， 以 减弱 光线 和 光照 强度 的 影响 ， 除 
的 2 880 个 图 像 序列 ， 标 有 六 个 基本 表情 标签 。 了 亮度 调整 外 ， 还 包含 了 对 比 度 调整 。 常 见 的 方法 有 直方 图 
RaFD04: 包含 实验 室 控 制 下 67 个 受 试 者 的 1 608 个 均衡 化 、 基 于 各 向 同性 扩散 〈IS) 归 一 化 、 基 于 离散 余弦 变 
像 ， 具 有 三 个 不 同 的 注视 方向 ， 即 前 、 左 和 右 ， 标 有 六 种 基 K DCT) 归 一 化 、 高 斯 (DoG) 归 一 化 。 其 中 直方 图 均衡 
本 表情 标签 加 中 性 表情 和 茂 视 表情 。 化 效果 相对 最 稳定 ， 适 应 各 种 网 络 模型 。 几 何 归 一 化 用 来 产 
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pu 


7s 


征 ， 表 现 出 有 限 的 识别 怕 


陆 嘉 慧 ， 等 : 基于 深度 学 习 的 面部 表情 识别 研究 


妈 ， 目 前 大 多 数 还 是 在 小 角度 内 利用 标志 点 天 
系列 基于 生成 式 对 抗 网 络 的 深度 模型 用 了 
正面 视图 合成 ， 如 FF-GAND20、TP-GANP71、DR-GANDC8 等 。 
特征 提取 的 深度 框架 


H 
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时 外 挑战 (EmotiW) 中 的 发 展 60， 基 于 深度 学 习 的 面部 表 


情 识别 问题 成 为 了 


一 个 热门 的 研究 课题 ， 其 关键 是 准确 地 提 
取 每 个 组 件 。 由 于 标注 的 数据 实际 上 是 有 限 的 ， 所 以 学 习 模 
E 是 几 种 近 几 年 性 能 较 好 的 基于 深度 学 习 的 
j 从 学 习 方 式 、 优 缺点 、 网 络 组 成 和 典型 


型 至 关 重 要 。 
E 的 FER 方法 要 手动 提取 与 表情 变化 FER 框架 。 
FE 能 。 随 着 情感 识别 在 改进 四 个 主要 方 
表 1 用 于 静态 图 像 的 表情 识别 深度 框架 比较 


看 进行 了 总 结 。 


Table 1 Comparison of expression recognition depth frames for static images 


深度 信念 网 络 自动 编码 器 方法 深度 卷 积 神经 网 络 
无 监督 学 习 无 监督 学 习 监督 学 习 
通过 局 部 感知 和 权 值 共享 来 减少 参数 ， 可 
识别 特征 , 分 类 数据 , 生成 数据 .数据 去 品 ; 进行 可 视 化 降 维 ; 生成 数据 。 
识别 特征 , 分 类 数据 , 生成 数据 .数据 去 噪 ; 进行 可 视 化 降 维 ; 生成 数据 Rs 


党 习 过 程 慢 ;容易 导致 学 习 收敛 


信息 受 损 ， 


于 局 部 最 优 解 
受 限 玻 尔 兹 曼 机 层 


MES. 神经 网 络 编码 器 和 
卷 积 DBN、 稀 玻 自动 编码 器 、 降 噪 自动 


数据 丢失 ， 没 有 全 


WR de o 


需要 调 参 ， 需 要 大 样本 量 ， 训 练 时 间 久 。 


卷 积 层 、 池 化 层 、 全 连接 层 。 


编码 器 、 收 AlexNet, GoogleNet, VGGNet, ResNet, 


2006 年 ， Hinton 
发 表 于 《Science》 | 


等 人 口 提出 深度 信念 网 络 及 其 高 效 的 
上 ， 成 为 其 后 深度 学 习 算 法 
训练 过 程 包 括 预 训练 和 调 优 过 程 ， 其 中 预 训练 
| 练 每 一 个 RBM， 经 过 预 训练 的 DBN 已 经 


标签 数据 通过 后 向 传播 (back propagation 
i o DBN 根据 人 脑 分 级 信息 处 理 抽 象 


算法 对 网 络 参数 进 


为 了 进一步 提高 网 络 的 判别 性 能 ， 


9 特征 (知识 ) 层 次， 实现 对 知识 的 
E 成 模型 ， 通 过 训练 其 神经 元 间 的 权 


六 让 整个 神经 网 络 按照 最 大 概率 来 生成 训练 数据 。 所 
DBN 识别 特征 和 分 类 数据 ， 还 可 以 用 它 来 
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Boltzmann machine, 
Sejnowski 于 1986 f£: 


— ME SE UR 3k 4k 28 =Œ BL. C restricted 
RBMPU) 构成 。RBM Hinton 和 


层 结构 , 即 可 见 层 和 隐 层 ， 


它 是 一 个 随机 生成 
Z RBM 的 隐 层 人 


网 络 ， 用 于 学 习 输 入 数据 的 概率 分 
FE 为 下 一 层 RBM 的 可 见 层 。 随 着 对 
可 用 于 降 维 的 RBM 还 具有 很 强 的 


chinaXiv 


等 人 [9 提出 了 一 种 称 为 
belief network, BDBN) 
征 选择 和 分 类 器 构建 统一 在 一 个 框架 中 ，BDBN 框 
一 组 DBN 结构 组 成 , 每 个 DBN 结构 都 是 一 个 多 层 图 形 
模型 。BDBN 学 习 包括 两 
迭代 直至 收敛 来 增强 分 类 能 力 。 在 文献 [33] 中 提出 了 一 个 
成 的 行动 单元 CAU) 启发 深度 网 络 ， 其 中 


三 个 连续 的 模块 


且 通 常用 于 构建 深度 置信 网 络 。Liu 
强 深度 置信 和 网络 (boosted deep 


的 方法 ， 这 是 第 一 次 系统 地 将 特征 


个 相互 关联 的 学 习 过 程 ， 通 过 交 旬 


, BP) 


条 件 RBM 等 。 缩 自动 编码 器 等 。 GoogleNet-Inception-Like 网 络 改 进 系 列 等 。 
3.2.1 深度 信念 网 络 有 噪声 破坏 的 自动 编码 器 ， 它 会 产生 原始 输入 的 损坏 版 本 。 


此 外 , 还 可 


动 编码 器 都 是 独立 训 


以 堆 且 以 获得 高 级 功能 , 从 而 实现 SDAE (stacked 
denoising auto-encoder) 方法 , 每 个 具有 一 个 隐藏 层 的 去 噪 自 
| 练 的 ， 因 此 SDAE 的 训练 是 分 层次 的 ; 


稀 玻 自动 编码 器 网 络 875 加 入 了 稀 玻 的 限制 性 条 件 ， 它 强制 学 


RER HIFA 


性 ， 不 仅 提 高 了 算法 的 灵活 性 ， 而 且 在 一 


定 程 度 上 使 得 存储 变 得 更 容易 ; 收缩 自动 编码 器 3 增加 了 一 


个 规则 项 ， 
上 的 扰动 。 


3.2.3 深度 卷 积 神经 网 络 


局 部 不 变 特征 ， 抑 制 训练 样本 在 所 有 方向 


最 近视 觉 对 象 识别 任务 已 经 越 来 越 多 地 使 用 “深度 神经 


网 络 ” 它 是 为 了 提高 神经 网 络 解决 大 数据 问题 的 能 力 而 开发 
的 技术 ， 提 供 了 一 种 结 
构 。 该 结构 可 以 学 习 多 级 表示 和 抽象 , 从 而 允许 算法 在 图 像 
声音 和 文字 中 找到 复杂 的 模式 。2012 年 人 们 发 现在 CNN 中 
使 用 自动 编码 器 做 逐 层 预 训练 可 以 训练 更 深层 的 网 络 ， 但 是 
的 初始 化 策略 要 比 费劲 的 逐 层 预 训 练 更 有 效 ， 
的 批量 归 一 化 (batch normalization, BN 


后 来 发 现 良好 
随后 在 2014 4 
方法 对 深层 网 络 的 计 


基于 “类 大 脑 ” 结 构 开 发 的 学 习 体系 结 


— 


练 起 到 了 促进 作用 ; 到 2015 年 底 , i 


残 差 网 络 基本 可 以 j 
络 中 ， 其 中 被 称 为 
人 员 研 究 视觉 的 经 
CNN 结构 
构成 。 卷 积 
高 置 参数 以 优 


— 


在 最 后 一 个 模块 中 和 
3.2.2 自动 编码 器 方法 
F 始 作为 一 种 数据 的 压缩 方法 ， 只 能 压缩 
时 相似 的 数据 ， 跟 数据 相关 程度 很 高 ， 且 在 降 维 的 
丢失 信息 导致 压缩 后 数据 受 损 。 使 用 自 
神经 网 络 通 过 将 输出 值 限制 为 等 于 输入 值 来 


HE RBM 学 习 分 层 特 征 。 


层 权重 。 在 文献 [3 和 中 


“ 卷 积 神经 网 络 ” 的 深度 模型 已 成 为 


练 任意 深度 的 神经 网 络 。 在 深度 神 


sg on m 
VEG 


卷 积 层 、 池 化 层 和 全 连接 层 三 个 主要 处 理 层 


方法 ,广泛 应 用 于 各 种 计算 机 视觉 应 用 。 


层 对 输入 执行 卷 积 ， 在 训练 过 程 中 ， 选 择 内 核 和 
网 络 输出 的 误差 函数 。 池 化 层 对 输入 图 像 应 
猴 ， 以 减少 操作 后 的 神经 元 数量 。 在 两 个 连续 的 


用 非 线 性 变 ] 


卷 积 层 之 间 放 置 


个 池 化 层 是 很 常见 的 ， 该 操作 还 可 以 减 小 


单元 尺寸 、 减 少 计 算 负荷 以 及 防止 过 度 拟 合 问 题 。 全 连接 层 
与 经 典 的 神经 网 络 层 完 全 相同 ， 其 中 层 中 的 所 有 神经 元 都 连 


接 到 后 续 层 中 站 
激活 函数 传递 上 
以 下 介绍 几 


深度 卷 积 # 


经 网 络 起 源 于 2012 年 的 AlexNet69]， 如 图 1 


神经 元 ， 神 经 元 由 它们 的 输入 总 和 乘 以 
而 触发 。 
所 的 卷 积 神经 网 络 。1) AlexNet 


i 入 时 产生 的 误差 来 调整 神经 网 络 的 每 


介绍 了 深度 自动 编码 器 (DAE) 来 学 
习 有 效 编码 , 与 之 前 提 到 的 训练 用 于 预测 目标 值 的 网 络 相 比 ， 
DAE 被 优化 以 通过 最 小 化 重建 误差 来 重建 其 输入 。 


编码 输入 且 尝试 如 


自动 编码 器 有 多 种 扩展 ， 例 如 去 噪 自 动 编码 器 61 普 试 
做 对 输入 的 随机 损坏 处 理 操作 ， 是 一 个 带 


所 示 ， 这 个 网 络 应 用 了 新 的 激活 函数 整 型 线性 单元 (ReLU) 
Bl. AlexNet 是 一 种 基于 传统 卷 积 神经 网 络 分 
层 体系 结构 的 网 络 ， 卷 积 层 之 后 是 最 大 池 层 和 ReLU， 在 


和 dropout! 4, rj 


堆栈 顶部 有 许多 完全 连接 的 层 。 部 分 卷 积 层 分 成 两 个 组 进行 
独立 计算 ， 有 利于 GPU 并 行 化 以 及 降低 计算 量 。 在 
ILSVRC-2012 比赛 中 ， 其 最 高 失误 率 为 15.3%， 该 网 络 也 是 
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录用 定稿 陆 嘉 慧 ， 等 : 基于 深度 学 


第 一 批 引入 “dropout” 解 决 过 度 拟 合 问题 的 网 络 之 一 ， 这 被 
证 明 是 开发 大 型 神经 网 络 的 关键 。 
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增加 了 网 络 的 非 线 性 ， 达 到 了 3.5% 错 误 率 。Inception-v4 fH 


ELT v3 版 本 增 
深 了 。 


加 了 Inception 模块 的 数量 ， 整 个 网 络 变 得 更 


神经 网 络 架构 的 改进 通常 依靠 增加 神经 元 数量 或 者 增加 


ER | H 
3 xr 1 
d 31-A] T. NA \ 
157 192 128 y 2048 X 208 dg 
N \ 
NN: 13 / N / N " 
j » y 4 V yN 
AT 3 LL LO L4 
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图 1  AlexNet 网 络 模型 
Fig.1 Alexnet network mode 

CNN 架构 的 示意 图 明确 显示 了 两 个 GPU 之 间 的 职责 划 
分 ,一 个 GPU 在 图 的 项 部 运行 图 层 部 分 , 而 另 一 个 在 底部 运 
行 图 层 部 分 。GPU 只 在 某 些 层 通信 。 网 络 的 输入 是 150 528 
维 的 ， 且 网 络 的 剩余 层 中 的 神经 元 数量 由 
253440-186624-64896-64896-43264-4096-4096-1000 给 出 。 

2) GoogLeNet 
在 2014 年 InageNet 面向 对 象 识别 的 挑战 中 ， 前 三 名 完 
成 者 都 使 用 了 CNN 方法 ， 其 中 GoogLeNet 架构 在 分 类 方面 
实现 了 6.66% 的 显著 误差 率 目 4 获得 第 一 名 ， 它 通过 使 用 多 


层 数 ， 使 网 络 学 习 更 加 复杂 的 功能 ， 然 而 增加 拓扑 结构 的 深 


度 和 复杂 性 会 导致 一 系列 问题 ， 如 训练 数据 过 度 拟 合 以 及 计 


算 需求 增加 。 网 络 日 益 密集 问题 的 一 个 自然 解决 方案 是 创建 


深度 稀 玻 网 络 。 


在 文献 [42] 中 首先 将 Inception 层 架 构 应 用 于 


跨 多 个 数据 库 的 FER 问题 ， 较 小 的 卷 积 应 用 于 局 部 ， 除 了 从 


网 络 的 稀疏 性 以 及 相对 深度 提供 理论 上 的 收益 外 ， 还 改进 了 
对 局 部 特征 的 识别 。 此 方法 随 着 本 地 性 能 的 提高 ， 全 局 池 化 


性 能 也 提高 了 ， 


因此 不 易 过 度 拟 合同 时 减少 训练 网 络 所 需 的 


操作 次 数 ， 从 而 可 以 显著 加 深 网 络 深度 而 不 必 担 心 使 用 小 图 
BE. Burkert 等 人 [9 提出 的 网 络 架构 受 GoogleNet 成 功 的 启 
发 ， 提 出 了 并 行 特 征 提 取 模 块 (FeatEx)， 它 建立 了 两 个 不 同 
比例 的 并 行路 径 ， 使 用 1*1 大 小 的 滤波 器 降低 了 维度 ， 接 着 
由 ReLU 层 增强 ， 从 而 创建 所 需 的 稀疏 性 ， 更 好 地 提取 了 图 


像 特征 且 计 算 量 大 大 减少 。 


3)VGGNet 


个 分 类 器 结构 ， 并 结合 多 个 来 源 进行 反 向 传播 ， 使 用 了 一 种 
新 颖 的 多 尺度 方法 。 这 种 架构 可 以 消除 在 到 达 开 始 层 之 前 后 
向 传播 衰退 时 出 现 的 一 些 问 题 ， 减 少 维度 的 附加 层 允 许 
GoogLeNet 在 宽度 和 深度 两 方面 均 不 会 有 明显 的 损失 ， 并 且 


得 了 ILSVRC-2 


2014 年 著名 的 牛津 大 学 视觉 组 提出 VGG WN, JE 


014 比赛 分 类 任务 的 第 二 名 (GoogleNet 第 


名 ) 和 定位 任务 的 第 一 名 。 这 是 一 种 只 专注 于 构建 卷 积 层 的 


简单 网 络 ， 结 构 规 整 ， 没 有 那么 多 的 超 参数 ， 一 个 重要 特性 


朝 着 Lin 等 人 原先 描述 的 复杂 网 络 网 络 体系 结 构 近 出 了 一 
步 。 换 名 话说 ， 该 体系 结构 由 多 个 “初始 ” 层 组 成 ， 其 中 每 
个 层 都 像 大 型 网 络 中 的 微型 网 络 一 样 ， 允 许 架构 作出 更 复杂 
的 决策 ,该 架构 将 多 个 不 同 尺度 的 卷 积 核 和 池 化 层 进行 整合 ， 


成 一 个 Inception 模块 ， 如 图 2 所 示 ， 大 幅度 减少 了 模型 的 
型 的 Inception 模块 结构 由 三 个 三 种 尺寸 的 卷 积 核 以 
及 一 个 最 大 池 化 单元 组 成 ， 它 们 共同 接受 来 自前 一 层 的 输入 
图 像 ， 并 行 地 对 输入 图 像 进行 处 理 ， 然 后 将 输出 结果 按照 通 
道 拼 接 起 来 。1*1 卷 积 主 要 用 来 降 维 。 因 为 卷 积 操 作 接受 的 
输入 图 像 大 小 相等 ， 而 且 卷 积 进行 了 padding 操作 ， 所 以 输 
出 图 像 的 大 小 也 相同 ， 可 以 直接 按照 通道 进行 拼接 。 
i 1 Î 
coe 


图 2  Inception {EIR 
Fig.2 Inception module!“ 

初始 深度 卷 积 体 系 在 文献 [44] 中 引入 ， 命 名 为 
Inception-v1。 后 来 ，Inception 架构 以 各 种 方式 得 到 了 改进 ， 
首先 是 批量 标准 化 的 引入 ， 对 每 个 mini-batch 数据 的 内 部 进 
行 标准 化 处 理 ， 使 每 一 层 的 输出 都 规范 化 到 一 个 N(0, 1) 的 高 
斯 ， 即 Inception-v2， 用 两 个 连续 的 3*3 的 卷 积 层 组 成 代替 


是 由 许多 具有 3*3 NICE AES E EIE HEB HU HEC 


的 感受 野 的 效果 ， 而 不 是 像 先前 的 CNN 模型 那样 使 用 具有 


9" 


更 大 滤波 器 尺寸 的 单个 卷 积 层 。 同 时 VGG 网 络 的 拓展 性 很 


强 ， 迁 移 到 其 他 图 


片 数据 上 的 泛 化 性 非常 好 。 在 VGG 网 络 


H 
结构 中 ， 对 图 像 四 周 各 填充 1 个 像素 ， 以 保证 卷 积 后 的 图 像 


大 小 不 变 。 所 有 池 化 层 都 采用 2*2 的 核 ， 步 长 为 2。 全 连接 
层 有 3 层 ， 分 别 包 括 4096. 4096, 1000 个 节点 。 除 了 最 后 
一 个 全 连接 层 之 外 ， 所 有 层 都 采用 了 ReLU 激活 函数 。 与 


AlexNet 相 比 ， 


VGG AHI LRN 层 ， 因 为 作者 在 实验 中 发 


现 LRN 的 作用 并 不 明显 。 这 些 思想 也 被 用 在 了 后 续 的 网 络 架 


构 中 ， 如 Incep 


tion 与 ResNet。 到 目前 为 止 ，VGG 网 络 依然 


经 常 被 用 来 提取 图 像 特征 ， 被 广泛 应 用 于 视觉 领域 的 各 类 任 
务 。 在 文献 [48] 中 对 VGG16 网 络 进行 微调 构建 了 一 个 加 权 混 
合 深 度 神经 网 络 (weighted mixture deep neural network, 

WMDNN) 来 自动 提取 特征 ,WMDNN 处 理 面 部 灰 度 图 像 及 


其 相应 的 局 部 二 值 模式 (LBP〉 面 部 图 像 这 两 个 通道 ， 输 出 


以 加 权 方 式 进行 融合 ，LBP 和 灰 度 人 脸 图 像 的 有 效 结合 保证 


了 泛 化 能 力 。 
4)ResNet 


ResNet 网 络 结构 的 关键 之 处 在 于 借鉴 了 “HighWay” 添 


加 一 条 “捷径 ” 


连接 路 径 。 在 文献 [49] 中 提出 了 一 个 残 差 学 


习 框 架 来 减少 网 络 的 训练 ， 它 明确 将 层 重新 定义 为 参照 层 输 


入 的 学 习 残 差 函 数 ， 而 不 是 学 习 未 引用 的 函数 ， 可 以 大 大 增 


加 深度 , 提高 准 


确 度 。 这 些 残 差 网 络 的 集合 在 ImageNet 测试 


网 络 深 8 倍 , 但 


集 上 实现 了 3.57% 的 top-5 错误 率 ， 深 度 达 152 层 ， 比 VGG 


仍然 具有 较 低 的 复杂 度 , 赢得 了 ILSVRC-2015 


分 类 任务 的 第 一 名 , 证 明了 在 Inception 架构 引入 残 差 连接 取 


得 了 最 先进 的 和 


Eé, + Inception-v3 网 络 相 似 。Szegedy 等 人 


Inception 模块 中 的 5*5 卷 积 层 ， 保 持 感受 野 范围 的 同时 又 减 
少 了 参数 量 加 速 了 计算 , 达到 了 4.8% 错 误 率 。 在 Inception-v3 
中 增加 了 分 解 思想 ， 将 一 个 较 大 的 三 维 卷 积 拆 成 两 个 较 小 一 
维 卷 积 ， 比 如 将 7*7 卷 积 分 解 成 两 个 一 维 的 卷 积 (1*7,7*1 )， 


BE] Inception 


Inception-v4, Inception-ResNet-v1 和 Inception-ResNet-v2。 其 
中 Inception-ResNet-vl 和 Inception-ResNet-v2 是 使 用 残 差 连 


提出 具有 残 差 连接 的 训练 明显 加 速 了 初始 网 络 的 训练 。 还 
有 一 些 证 据 表 明 , 残 差 Inception 网 络 的 性 能 优 于 没有 多 余 连 


网 络 ， 提 出 了 几 个 新 的 简化 架构 ， 即 
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接 的 Inception 网 络 ， 结 构 基 本 相同 ， 只 是 细节 不 同 在 文献 [50, 51] 中 , 基于 区 域 的 CNN (region-based CNN, 
另外 文献 [49] 还 分 析 了 在 CIFAR-10 数据 集 上 100 层 和  R-CNN6523) 用 于 学 习 FER 的 特征 。 在 文献 [53] 中 ， 更 快 的 
1000 层 的 残 差 网 络 ， 随 着 网 络 深度 的 增加 ， 神 经 网 络 的 训 。”R-CNN[29I 通 过 生成 高 质量 的 区 域 提案 来 识别 面部 表情 ,避免 
练 误 差 和 测试 误差 会 增 大 , 准确 度 变 得 饱和 , 然后 迅速 退化 。 了 复杂 的 显 式 特征 提取 过 程 和 低层 次 数据 操作 问题 ， 用 区 域 
这 种 退化 不 是 由 过 度 拟 合 引 起 的 ， 因 为 过 拟 合 只 是 在 测试 集 ”推荐 网 络 改 善 了 区 域 提 案 54 质 量 和 整体 目标 检测 的 准确 性 。 
上 的 误差 大 。 于 是 引入 深度 残 差 学 习 框 架 来 解决 退化 问题 ， 在 文献 [55] 中 ， 提 出 了 一 种 基于 感 兴趣 区 域 (region of 
让 这 些 图 层 适 合 残 差 映射 ， 而 不 是 每 个 堆 马 的 图 层 直 接 适 合 interest, ROI) 的 面部 表情 识别 方法 ， 将 人 脸 图 像 裁 前 成 眼 
所 需 的 底层 映射 ， 如 图 3 所 示 ， 通 过 具有 “捷径 ”的 前 馈 神 睛 区 域 和 嘴巴 区 域 ， 并 且 针 对 整个 脸 部 区 域 、 眼 睛 区 域 和 嘴 
经 网 络 来 实现 ,捷径 连接 是 那些 跳 过 一 个 或 多 个 图 层 的 连接 ， 部 区 域 分 别 训练 三 个 CNN,， 这 样 不 但 增加 了 训练 数据 ,而且 
只 需 执 行 标志 映射 ， 并 将 其 输出 添加 到 堆 又 层 的 输出 中 , 不 不 同 ROI 之 间 的 关系 有 助 于 加 强 预 测 目标 的 可 靠 性 ,文献 [56] 
会 增加 额外 的 参数 和 计算 复杂 性 。 整 个 网 络 仍然 可 以 通过 随 中 设置 了 七 个 面部 ROI 区 域 ， 使 用 由 Dlib 库 检 测 的 68 个 地 
机 梯度 下 降 CSGDO 进行 端 对 端的 反 向 传播 ， 并 且 可 以 使 | 标 位 置 来 确定 面部 图 像 的 ROI， 由 最 小 边界 矩形 计算 ， 将 训 
通用 库 轻 松 实现 ， 而 无 须 修改 解 算 器 。 练 数据 扩展 了 七 倍 。 此 外 在 测试 阶段 使 用 了 一 种 改进 的 方法 ， 
残 差 网 络 并 不 是 一 个 单一 的 超 深 网 络 ， 而 是 多 个 网 络 指 “分别 确定 了 ROI 区 域 并 实施 决策 融合 策略 。 在 文献 [57] 中 结 
数 级 的 隐 式 集成 ， 在 预测 时 ， 残 差 网 络 的 行为 类 似 于 集成 学 合 感 兴趣 区 域 和 OK 最 近邻 算法 C(K-nearest neighbors, KNN) 


习 。 对 训练 时 的 梯度 流向 进行 分 析 ， 发 现 隐 式 集成 大 多 由 一 提出 ROI-KNN 训练 改进 方法 ， 降 低 了 由 于 面部 表情 训练 数 
些 相 对 浅 层 的 网 络 组 成 ， 因 此 ， 残 差 网 络 并 不 能 解决 梯度 消 据 过 少 而 导致 深度 神经 网 络 模型 泛 化 能 力 不 佳 的 问题 ， 从 而 
失 问 题 。 提高 了 和 鲁 棒 性 。 文 献 [58] 中 提出 了 多 尺度 CNN， 即 用 两 个 或 
z 更 多 有 具 有 不 同 尺度 输入 图 像 的 CNN 模型 ,多 尺度 CNN 的 子 
v - CNN 受益 于 各 种 缩放 的 输入 图 像 以 学 习 最 优化 参数 。 文 献 
& Pr [59] 中 提出 基于 高 级 特征 的 迁移 学 习 ， 即 从 训练 的 深度 模型 
e Ed 迁移 高 级 特征 来 识别 表情 。 在 文献 [60] 中 使 用 深度 卷 积 神经 
N identity 网 络 特征 ， 用 于 ImageNet 对 象 检测 的 CNN 架构 被 用 于 提取 
e F(x) +x 面部 特征 ， 在 第 五 屋 (POOLS ) 上 合并 操作 之 后 提取 的 特征 
© 被 用 于 识别 面部 表情 , 这 是 特征 最 明显 的 层 。Yu 中 ! 通 过 使 用 
= 图 3 EXC]: 一 个 构建 块 "9 最 小 化 对 数 似 然 性 损失 和 最 小 化 贸 链 损失 提出 了 两 种 新 颖 的 
e Fig.3 Residual learning: building block"?! 约束 优化 框架 来 组 合 多 个 CNN 模型 ， 即 最 小 化 整体 网 络 输 
o 5) 其 他 出 响应 的 损失 来 自 适应 的 为 每 个 网 络 分 配 不 同 的 权重 。 在 文 
Y de 2 中 列 出 来 已 应 用 于 FER 的 一 些 经 典 CNN 模型 的 网 献 [62] 中 使 用 Nesterov 加 速 梯度 下 降 来 优化 的 网 络 权重 ， 其 
m 络 结构 和 特征 的 比较 。 除 了 这 些 网 络 之 外 ， 还 存在 几 个 众 所 中 参数 是 根据 先前 的 动量 更 新 ， 然 后 修正 梯度 以 实现 参数 更 
日 日 周知 的 派生 框架 。 新 ， 这 样 可 以 防止 大 的 振荡 并 提高 网 络 的 响应 能 力 。 
之 R2 CNN 经 典 模型 比较 
>< Table 2 CNN classic model comparison 
| — — . 网 络 结构 "m" 
S 深度 学 习 柑 型 ”时 间 一 APRBOUR Dopu MEE mepion EN 识别 率 
c AlexNet[39] 2012 8 11,5,3 V "| x x ILSVRC 2012 比赛 第 1 名 ， 最 高 失误 率 为 15.3%。 
Oo GoogLeNet[J44] 2014 22  7,,3,5 "| "| "| x ILSVRC 2014 比赛 分 类 任务 的 第 1 名 , top-5 错误 率 6.6796. 
VGGNet[47] — 2014 16/19 3 4 "| x X ILSVRC 2014 比赛 分 类 任务 的 第 2 名 和 定位 任务 的 第 1 名 。 
ResNei49] — 2015 152 7135 ~ J x j OYRU E Its EAN i 


上 实现 了 3.57% f] top-5 错误 率 。 


Connie 等 人 6] 将 SIFT Cscale-invariant feature transform ) 


il 


E 与 从 原始 图 像 学 习 到 


的 CNN 特征 合 


SIFT 特征 用 于 


训练 数据 来 生成 有 


居 的 性 能 ， 攻 
。 在 文献 [64] 


H 
JE 


Y 
Dp H 
zt nm 
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il 


E 和 地 标 特征 组 


来 提高 识别 性 能 ， 


为 SIFT 不 需要 大 量 的 
中 提出 了 一 种 CNN 


情 识 别 算法 ， 该 算法 


仅 使 用 3D 几何 脸 音 
照 变化 ， 通 过 使 用 正 交 投影 从 3D 人 脸 模型 生成 


现 姿态 和 光 


王 何 纹 


深度 和 曲率 图 ， 


在 文献 [65] 中 
CW-CR-AFM) 


SE. 
将 测试 样本 


1 加 权 中 心 
FORE 


回归 


征 分 布 ， 预 测 标签 可 以 得 到 纠正 ， 


里 信息 ， 


于 
所 以 不 会 出 


这 些 图 与 地 标 生 成 的 组 合 以 训练 CNN 模型 。 
自 适 应 特征 映射 
E 分 布 转换 为 训练 样本 的 特 


适应 特征 映 


射 可 以 重新 


构造 没有 


而 不 需要 本 


了 标签 信息 的 新 相 
分 类 的 样本 。 对 于 多 视 人 
[66] 通 过 在 2D SIFT 特征 矩阵 内 


# 本 的 特征 ， 从 ; 
的 面部 表情 识 另 


J 可 以 纠 
| 问题 ， 


XR ERIT 


部 标志 


正 一 些 错误 
Zhang 等 人 
点 进行 加 权 


j 部 姿态 估计 ， 在 CNN 中 引入 了 投影 层 来 学 习 特 


， 以 自 适应 地 学 习 空间 判别 信息 
能 , 且 大 大 减少 空间 复杂 度 , 非 正面 
3.3 面部 表情 分 类 

在 学 习 了 特征 i 部 表情 识别 的 最 后 一 步 是 将 给 定 
的 图 片 分 类 输出 为 基本 表情 之 一 。 可 以 将 损失 层 添加 到 网 络 
末端 以 调节 反 向 传播 误差 ， 那 么 每 个 样本 的 预测 概率 可 以 直 
接 由 网 络 输 出， 也 可 以 使 用 深度 学 习 网 络 〈 特 别 是 CNN ) 作 
为 特征 提取 工具 ， 然 后 用 其 他 分 类 器 ， 如 支持 向 量 机 、K 最 


以 及 提取 更 鲁 棒 的 高 层 功 
四 部 表情 识别 效果 较 好 。 


D 
EI 
FH 


过 后 ， 由 


H 


邻近 学 习 算 法 (KNN)、 随 机 森林 等 进行 分 类 。 
4 ”结束 语 

面部 表情 识别 问题 一 直 以 来 是 计算 机 视觉 、 模 式 识别 领 
域 的 研究 热点 , 尽管 深度 学 习 方法 具有 强大 的 特征 学 习 能 力 ， 
但 应 用 于 面部 表情 识别 时 仍 存在 问题 ， 其 鲁 棒 性 有 待 进一步 
提高 。 


录用 定稿 
首先 ， 鉴 于 面部 表情 识别 是 一 项 数据 驱动 的 任务 ， 训 练 


足够 深 的 神经 网 络 以 捕获 与 表情 相关 的 细微 变化 需要 大 量 的 
训练 数据 来 避免 过 拟 合 ， 然 而 现 有 的 数据 集 不 足以 训练 具有 
深度 结构 的 神经 网 络 以 达到 最 佳 识别 率 。 由 于 不 同 的 年 龄 、 
种 族 、 性 别 的 人 以 不 同 的 方式 展现 面部 表情 ， 所 以 理想 的 面 
部 表情 数据 
集 应 包括 具有 精确 面部 属性 标签 的 丰富 样本 图 像 ， 不 仅 
仅 只 有 表情 标签 ， 还 应 包含 其 他 属性 ， 如 年 龄 、 性 别 和 种 族 
等 ， 这 有 助 于 使 用 深度 学 习 方 法 对 跨 年 龄 、 跨 文化 面部 表情 
识别 等 问题 进行 研究 。 

此 外 ， 由 于 人 脸 是 非 刚 性 的 形体 ， 人 脸 的 外 观 会 受到 成 
像 姿势 、 物 体 谈 挡 、 光 照 变 化 等 因素 的 影响 ， 这 些 因素 与 面 
部 表情 非 线 性 耦合 ， 所 以 需要 深度 神经 网 络 更 有 效 地 学 习 4 
征 ， 比 如 : a) 可 以 使 用 网 络 集成 方法 ， 在 特征 或 决策 层面 
成 各 种 网 络 以 结合 它们 的 优势 ， 研 究 表明 多 个 网 络 的 集合 可 
个 关键 因素 ， 
即 网 络 的 充分 多 样 性 以 确保 互补 性 、 E 够 有 效 集合 网 络 的 适 
当 方 法 ; b) 使 用 QUA 训练 多 个 网 络 ， 同 时 
考虑 目标 FER 任务 与 其 他 次 要 任务 之 间 的 交互 , 许多 现 有 的 
FER 网 络 专注 于 单一 任务 ， 而 不 考虑 其 他 潜在 因素 之 间 的 相 
互 作用 ,然而 在 现实 世界 中 FER 与 各 种 因素 交织 在 一 起 ; c) 
使 用 级 联网 络 方法 ， 处 理 不 同 任务 的 各 模块 被 顺序 组 合 以 设 
计 更 深 的 网 络 ， 其 中 前 一 模块 的 输出 被 后 一 模块 利用 ， 以 分 


pel 
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|j 
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层 方法 顺序 地 训练 多 个 网 络 来 不 断 增强 学 习 特征 能 力 。 通 常 
这 些 方法 可 以 缓解 过 度 拟 合 问题 ， 同 时 逐步 消除 与 面部 表情 
无 关 的 因素 。 
与 静态 人 脸 表 情 图 像 识 别 相 比 ， 
y 还 远 未 成 熟 。 用 于 视频 的 面部 表情 分 析 可 以 从 包 
细微 外 观 变化 的 动态 图 像 序列 的 连续 帧 的 时 间 相 关 性 中 受 
益 ， 但 训练 的 深度 模型 的 计算 量 也 会 大 大 增加 ， 与 此 同时 训 
练 数据 的 规模 也 在 迅速 增加 。 在 未 来 的 研究 中 ， 可 以 开发 新 
的 并 行 计 算 系 统 更 加 有 效 地 利用 大 数据 训练 更 大 更 深 的 深度 
学 习 模 型 。 

除 此 之 外 ， 虽 然 微 表 情 上 5 不 能 准确 识别 情绪 ， 但 是 可 
以 相当 准确 的 识别 情感 ， 也 就 是 说 通过 面部 肌肉 的 轻微 活动 
是 完全 可 以 判断 一 个 人 是 积极 的 状态 还 是 消极 的 状态 ， 是 激 
动 还 是 冷静 的 。 如 果 想 获得 一 个 人 的 情绪 应 该 用 哪个 词 来 形 
ch pn t 
背景 信息 和 他 的 个 人 经 历 综 合 起 来 进行 理解 。 这 种 微 
究 的 一 个 方向 。 
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